需要长马计划和持续控制能力的问题对现有的强化学习剂构成了重大挑战。在本文中,我们介绍了一种新型的分层增强学习代理,该学习代理将延时的技能与持续控制的技能与远期模型联系起来,以象征性的分离环境的计划进行计划。我们认为我们的代理商符合符号效应的多样化技能。我们制定了一种客观且相应的算法,该算法通过已知的抽象来通过内在动机来无监督学习各种技能。这些技能是通过符号前向模型共同学习的,该模型捕获了国家抽象中技能执行的影响。训练后,我们可以使用向前模型来利用符号动作的技能来进行长途计划,并随后使用学识渊博的连续行动控制技能执行计划。拟议的算法学习了技能和前瞻性模型,可用于解决复杂的任务,这些任务既需要连续控制和长效计划功能,却具有很高的成功率。它与其他平坦和分层的增强学习基线代理相比,并通过真正的机器人成功证明。
translated by 谷歌翻译
微弱的物理是计算机视觉和机器人的强大工具,用于了解互动的场景理解和推理。现有方法经常被限于具有预先已知的简单形状或形状的物体。在本文中,我们提出了一种新的方法来具有摩擦触点的可分解物理学,其利用符号距离场(SDF)隐含地表示物理形状。我们的模拟即使涉及的形状为非凸形表示,也支持接触点计算。此外,我们提出了区分对象形状的动力学来利用基于梯度的方法来促进形状优化。在我们的实验中,我们证明我们的方法允许从轨迹和深度图像观察的诸如摩擦系数,质量,力或形状参数的物理参数的基于模型的推断,并且在几个具有挑战性的合成场景和真实图像序列中。
translated by 谷歌翻译
代表物体粒度的场景是场景理解和决策的先决条件。我们提出PrisMoNet,一种基于先前形状知识的新方法,用于学习多对象3D场景分解和来自单个图像的表示。我们的方法学会在平面曲面上分解具有多个对象的合成场景的图像,进入其组成场景对象,并从单个视图推断它们的3D属性。经常性编码器从输入的RGB图像中回归3D形状,姿势和纹理的潜在表示。通过可差异化的渲染,我们培训我们的模型以自我监督方式从RGB-D图像中分解场景。 3D形状在功能空间中连续表示,作为我们以监督方式从示例形状预先训练的符号距离函数。这些形状的前沿提供弱监管信号,以更好地条件挑战整体学习任务。我们评估我们模型在推断3D场景布局方面的准确性,展示其生成能力,评估其对真实图像的概括,并指出了学习的表示的益处。
translated by 谷歌翻译
在本文中,我们提出了一个用于计算插值分解(ID)的概率模型,其中观察到的矩阵的每一列都有其自身的优先级或重要性,因此分解的最终结果可以找到一组代表该功能的特征,这些功能代表了该功能整个功能以及所选功能的优先级也比其他功能更高。这种方法通常用于低级别近似,特征选择和提取数据中的隐藏模式,其中矩阵因子是与每个数据维度相关的潜在变量。应用贝叶斯推理的Gibbs采样用于进行优化。我们评估了现实世界数据集上的拟议模型,包括十个中国A股票股票,并证明了带有干预措施(IID)的拟议的贝叶斯ID算法(IID)与现有贝叶斯ID算法的可比较重建错误,同时选择具有更高分数或优先级的特征。
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
在这项工作中,我们提出了Reldec,一种用于顺序解码中等长度低密度奇偶校验(LDPC)代码的新方法。 Reldec背后的主要思想是,基于Markov决策过程(MDP),通过增强学习获得优化的解码策略。与我们以前的工作相比,如果代理学习在每个迭代的CNS的组(群集中)中只学习一个检查节点(CN),我们在这项工作中我们培训代理程序在群集中安排所有CN和所有集群在每一次迭代中。也就是说,在Reldec的每个学习步骤中,代理学会根据与调度特定群集的结果相关联的奖励来顺序地安排CN簇。我们还修改了MDP的状态空间表示,使RELDEC能够适用于比我们之前的工作中研究的更大的块长度LDPC代码。此外,为了在不同信道条件下进行解码,我们提出了两个相关方案,即敏捷元 - Reldec(AM-Reldec)和Meta-Reldec(M-Reldec),这两者都采用了元增强学习。所提出的Reldec计划显着优于各种LDPC代码的标准洪水和随机顺序解码,包括为5G新无线电设计的代码。
translated by 谷歌翻译
伤害分析可能是基于深度学习的人类姿势估计的最有益的应用之一。为了促进进一步研究本主题,我们为高山滑雪提供了伤害特定的2D数据集,总计533个图像。我们进一步提出了一个后处理程序,它将旋转信息与简单的运动模型相结合。我们可以将秋季情况的检测结果提高到21%,关于pck@0.2指标。
translated by 谷歌翻译
最近,使用自动编码器(由使用神经网络建模的编码器,渠道和解码器组成)的通信系统的端到端学习问题最近被证明是一种有希望的方法。实际采用这种学习方法面临的挑战是,在变化的渠道条件(例如无线链接)下,它需要经常对自动编码器进行重新训练,以保持低解码错误率。由于重新培训既耗时又需要大量样本,因此当通道分布迅速变化时,它变得不切实际。我们建议使用不更改编码器和解码器网络的快速和样本(几射击)域的适应方法来解决此问题。不同于常规的训练时间无监督或半监督域的适应性,在这里,我们有一个训练有素的自动编码器,来自源分布,我们希望(在测试时间)使用仅使用一个小标记的数据集和无标记的数据来适应(测试时间)到目标分布。我们的方法着重于基于高斯混合物网络的通道模型,并根据类和组件条件仿射变换制定其适应性。学习的仿射转换用于设计解码器的最佳输入转换以补偿分布变化,并有效地呈现在接近源分布的解码器输入中。在实际MMWAVE FPGA设置以及无线设置共有的许多模拟分布变化上,使用非常少量的目标域样本来证明我们方法在适应时的有效性。
translated by 谷歌翻译